Consulta d'imatges mitjançant exemple
La consulta d'imatges mitjançant exemple (content-based Image retrieval, CBIR) és un sistema de recerca per recuperar imatges que es basa en el seu contingut, i que es refereix en el seu context a colors, formes, textures o qualsevol altra informació que pugui derivar-se de la imatge mateixa.
CBIR és una especificitat de consulta mitjançant exemple (Query by Example) i també són coneguts com a QBIC, ja que és la tecnologia més utilitzada avui dia per a la cerca d'imatges en grans bases de dades. Entre les variants de consultes mitjançant exemple però, també hi trobem diferents especificitats com ara els sistemes de cerca amb àudio com per exemple el cercador de veu o la cerca amb text.
Història
[modifica]Els sistemes CBIR van sorgir al començament de la dècada dels noranta per solucionar els problemes de la indexació manual, que consisteix en la descripció de les imatges amb paraules. Aquests problemes eren, i segueixen sent, una gran inversió en temps a causa de la inconsistència del llenguatge natural, així com la dificultat d'expressar amb paraules les qualitats gràfiques i les sensacions estètiques que proporciona la percepció d'una representació visual.
L'ús de cerques automàtiques a través d'un conjunt d'imatges sobre la seva base de forma, to, color, textura o ubicació espacial ha estat durant molt de temps i continua sent una àrea de recerca florent, on cada any, apareixen documents en fòrums científics i tècnics.
Progrés tècnic
[modifica]Hi ha un creixent interès en CBIR a causa de les limitacions inherents als sistemes basats en metadades, així com l'àmplia gamma de possibles usos per a la recuperació de la imatge de forma eficient. La informació textual sobre les imatges pot ser buscat fàcilment utilitzant la tecnologia existent, però requereix personal per a descriure cada imatge a la base de dades. Això és poc pràctic per a bases de dades molt grans, o per a imatges que es generen de forma automàtica, per exemple, de les càmeres de vigilància. També és possible perdre imatges que utilitzen sinònims diferents en les seves descripcions. Els sistemes basats en la classificació de les imatges de forma semàntica, com "gat" com una subclasse de "mamífers" eviten aquest problema, però encara s'enfronten als problemes a gran escala.
Les característiques visuals més extensament manejades per aquests sistemes es refereixen al color, textura i formes genèriques, encara que a vegades també es treballa amb la posició espacial d'un determinat objecte en una imatge o les diferències tonals. Aquests atributs s'extreuen i es representen automàticament a través d'estructures de dades numèriques, de manera que no necessitem expressar la nostra cerca mitjançant termes sinó emprant, per exemple, paletes de colors, dibuixant o seleccionant imatges a partir de les quals el sistema retornarà altres visualment similars. No obstant això, els sistemes CBIR de caràcter mixt solen combinar aquestes opcions de consulta també amb la tradicional expressió lingüística del que busquem.
Sistemes de programari CBIR i tècniques
[modifica]Molts són els sistemes CBIR desenvolupats, però el problema de la recuperació de les imatges a partir del seu contingut encara és en gran manera de píxels sense resoldre.
Tècniques de consulta
[modifica]Diferents implementacions de CBIR fan ús de diferents tipus de consultes dels usuaris.
Opcions d'implementació
[modifica]Les opcions per proporcionar imatges d'exemple al sistema inclouen:
- Una imatge preexistent pot ser subministrada per l'usuari, o bé escollir un conjunt aleatori.
- L'usuari dibuixa una aproximació de la imatge que està buscant, per exemple, amb taques de color o formes generals.
Recuperació semàntica
[modifica]El sistema CBIR ideal, des de la perspectiva de l'usuari, implicaria el que es coneix com a recuperació semàntica, on l'usuari fa una petició com a "trobar fotos de gossos" o fins i tot "trobar fotos d'Abraham Lincoln". Aquest tipus de composició oberta, és una tasca tediosa per ser portat a terme pels ordinadors. Els sistemes CBIR actuals, generalment fan ús de funcions de menor nivell com la textura, color i forma, encara que alguns sistemes s'aprofitin de característiques comunes d'alt nivell com poden ser les cares (vegeu el sistema de reconeixement facial).
D'altra banda, no tots els sistemes CBIR són genèric. Alguns sistemes estan dissenyats per a un domini específic, per exemple, la cerca per forma es pot utilitzar per trobar les peces dins d'una base de dades de CAD-CAM.
Altres mètodes de consulta
[modifica]Altres mètodes de consulta inclouen la navegació per imatges d'exemple, navegació personalitzada o categories jeràrquiques, consulta per regions de la imatge (en lloc de tota la imatge), per múltiples imatges d'exemple, per esbós, consulta directa per especificació de les característiques de la imatge, i les consultes multimodal (per exemple, la combinació de tacte, veu, etc.).
Els sistemes CBIR també poden fer ús de la retroalimentació pertinent, on l'usuari refina progressivament els resultats de cerca mitjançant el marcatge de les imatges en els resultats com "rellevant", "no rellevant" o "neutral" a la consulta de cerca, després repetir la cerca amb la nova informació.
Tècniques de comparacio de contingut
[modifica]Color
[modifica]La recuperació d'imatges basada en la semblança de color, s'aconsegueix mitjançant el càlcul d'un histograma de color per a cada imatge que identifica la proporció de píxels d'una imatge que contenen valors específics en aquest cas, colors. Les recerques actuals estan tractant de dividir segments de color per regió i per la relació espacial entre dues regions de colors diferents.
Mostra imatges basant-se en els colors que contenen és una de les tècniques més àmpliament usades perquè no depèn de la mida de la imatge o de la seva orientació. La cerca basada en el color s'executa comunament comparant els histogrames de color de les imatges.
Textura
[modifica]La mesura de les textures cerca patrons visuals en les imatges i tracta de trobar la manera en què es defineix l'espai. La textura es representa mitjançant Texels que després es col·loquen en una sèrie de conjunts depenent en totes les textures s'han detectat a la imatge. Aquests conjunts no només defineixen les textures, sinó també quan en aquesta imatge (en quin punt) es troba aquesta textura.
Formes
[modifica]La forma no es refereix a la forma d'una imatge com a la forma d'una regió en particular. Les formes sovint són determinades aplicant primer el mètode de segmentació (segmentation) o la detecció de les vores (edge detection) d'una imatge. En alguns casos una acurada detecció de les formes requereix intervenció humana perquè els mètodes com la segmentació són molt difícils per automatitzar.
Determinació de la rellevància de les imatges
[modifica]Per a la determinació de la rellevància de les imatges dels sistemes CBIR consten de:
- Funcions de similitud entre imatges:
- La distància euclidiana sobre característiques normalitzades
- La distància d'intersecció, diferència entre histogrames
- La Distància de Mahalanobis, Haussdorff, Minkowski, etc.
- Ponderació de la influència dels diferents tipus de característiques. Els sistemes CBIR consten d'una base de dades de característiques que pugui tenir una imatge.
- Interpretació semàntica de les imatges, aquest punt requereix la interacció de l'usuari, i amb això que aquest conegui el funcionament del sistema.
Aplicacions
[modifica]- Bancs d'imatges en museus (quadres, escultures, etc.), ja que mitjançant la recerca de les formes, podem trobar la imatge d'una obra d'art. Aquest tipus de consulta ja està disponible en alguns web sites com per exemple, el del State Hermitage Museum de Saint Petersburg . No obstant això, cal dir que el repte de la utilització d'aquestes tècniques en el context de la història de l'art i la recerca arqueològica presenta el que les persones que treballen en el camp han anomenat la "bretxa semàntica". Es tracta de la recerca de característiques definibles i actualment la impossible tasca de l'automatització de la recerca de l'essencial en l'art, és a dir, l'emoció, la personalitat, la ironia i un nombre d'altres estats o modes d'interpretació àmpliament representats a tot l'àmbit de l'art.
- Registre d'imatges mèdiques (radiografies, ecografies, mamografies, etc.). Disposant d'una imatge d'un pacient amb una determinada patologia, es pot accedir a un registre d'imatges d'altres casos donats en altres pacients, per trobar, mitjançant el contingut visual, la imatge d'aquesta patologia en un pacient diferent i consultar quin tipus de tractament pot resultar més eficaç. Cal tenir en compte en aquests casos la precisió i la qualitat que han de tenir aquestes imatges, ja que compten amb un gran contingut visual, de color i per tant requereixen un gran espai a la base de dades. Aquest tipus de sistemes, necessiten una gran precisió i un molt baix percentatge d'error. Exemples de bases de dades d'imatges mèdiques a IRMA Arxivat 2008-12-02 a Wayback Machine. (Image Retrieval in Medical Applications)
- Registre d'imatges policials. És una cosa que hem vist moltes vegades al cinema oa la televisió. Mitjançant els sistemes de consulta d'imatges per continguts es pot trobar la fotografia d'un sospitós dins dels arxius policials i així consultar les seves dades personals. En aquests casos s'utilitza la detecció de trets facials, ulls, nas i boca, per fer la cerca més eficientment. També s'utilitza per trobar empremtes dactilars entre un registre d'aquestes, pertanyents a sospitosos fitxats per la policia.
- Altres aplicacions CBIR:
- Militar
- Propietat intel·lectual
- Dissenys arquitectònics i d'enginyeria
- Informació geogràfica i sistemes de teledetecció